代码拉取完成,页面将自动刷新
当大模型在训练和预测时的输入长度不一致时,模型的泛化能力会下降。若外推能力不佳,大模型在处理长文本或多轮对话时的效果就会受到限制。正弦位置编码的外推能力比较弱,RoPE(Rotary Position Embedding)的外推能力有一定提高但仍然有限。
支持Alibi位置编码,提高模型外推能力。
Alibi算法给attention score添加了一个预设的线性偏置矩阵(如下图所示),使模型能够理解输入之间的相对位置关系。由于位置信息直接作用于attention score上,位置差异性被突出,使模型具有较强的外推能力。
(1)对于不使用融合算子fusion_attention的情况,设置--position-embedding-type alibi
即可调用该算法。
(2)对于使用融合算子fusion_attention的情况设置 --alibi-fusion-attn-type 2
(支持0,2,3)
0表示生成alibi后传入,1暂不开放, 2和3表示核内生成, 3做pse的时候会做sqrt。
如果要设置alibi为对角线对称取反,则需设置alibi_diagonal_opposite
,反正(亦是默认情况,且与2和3时内核生成一致)无需进行设置。
模型外推能力提高。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。